범주형 변수

작성자

익명

작성일

2025.08.31

조회수

버전

범주형 변수(Categorical Variable)는 데이터 분석에서 중요한 데이터 유형 중 하나로, 관측값이 특정 범주(category) 또는 그룹에 속하는지를 나타내는 변수입니다. 이 변수는 수치적 의미보다는 질적(qualitative) 성격을 가지며, 데이터를 분류하거나 그룹화하는 데 사용됩니다. 예를 들어, 성별(남성, 여성), 혈액형(A형, B형, AB형, O형), 직업(의사, 교사, 엔지니어) 등이 범주형 변수의 대표적인 예입니다.

데이터 과학과 통계 분석에서는 변수의 유형에 따라 분석 방법과 시각화 기법이 달라지므로, 범주형 변수를 정확히 이해하고 처리하는 것은 데이터 분석의 정확성과 해석의 신뢰성을 높이는 데 핵심적인 역할을 합니다.

범주형 변수의 종류

범주형 변수는 그 범주의 성격에 따라 두 가지 주요 하위 유형으로 나뉩니다.

명목형 변수 (Nominal Variable)

정의: 순서가 없는 범주를 가진 변수입니다.
특징: 범주 간에 크기나 순서의 의미가 없습니다.
예시:
성별: 남성, 여성
혈액형: A, B, AB, O
국적: 한국, 미국, 일본
분석 시 고려사항: 통계적 분석 시에는 레이블 인코딩(Label Encoding)이나 원-핫 인코딩(One-Hot Encoding) 등의 방법을 사용하여 모델이 이해할 수 있도록 변환해야 합니다.

순서형 변수 (Ordinal Variable)

정의: 범주 간에 의미 있는 순서가 존재하는 변수입니다.
특징: 범주가 순서를 가지지만, 간격이 동일하지 않을 수 있습니다.
예시:
학력: 고졸, 전문대졸, 대졸, 대학원졸
만족도 평가: 매우 불만족, 불만족, 보통, 만족, 매우 만족
분석 시 고려사항: 순서 정보를 유지하는 방식으로 인코딩해야 하며, 일반적으로 정수 값으로 매핑되지만, 간격이 등간격이 아님을 유의해야 합니다.

범주형 변수의 데이터 처리

머신러닝 모델은 대부분 수치형 입력을 필요로 하기 때문에, 범주형 변수는 분석 전에 적절한 방식으로 수치화(encoding)되어야 합니다.

1. 레이블 인코딩 (Label Encoding)

각 범주에 고유한 정수 값을 할당합니다.

예시:

  '빨강' → 0
  '파랑' → 1
  '초록' → 2

장점: 간단하고 메모리 효율적
단점: 명목형 변수에 사용 시, 모델이 숫자의 크기를 순서로 오해할 수 있음 (예: 2 > 1이므로 '초록'이 '파랑'보다 중요하다고 판단할 수 있음)

2. 원-핫 인코딩 (One-Hot Encoding)

각 범주에 대해 하나의 이진 열(binary column)을 생성합니다.
예시:

색상	빨강	파랑	초록
빨강	1	0	0
파랑	0	1	0
초록	0	0	1

장점: 명목형 변수에 적합하며, 순서 정보를 부여하지 않음
단점: 범주 수가 많을 경우 차원 증가(차원의 저주) 문제가 발생할 수 있음

3. 타깃 인코딩 (Target Encoding)

범주별로 목표 변수(target)의 평균값을 사용하여 인코딩합니다.
주로 분류 문제에서 사용되며, 특히 카테고리가 많은 경우 유용합니다.
주의: 데이터 누수(data leakage)를 방지하기 위해 교차 검증 방식으로 적용해야 합니다.

범주형 변수의 시각화

범주형 변수는 다음과 같은 그래프를 통해 효과적으로 시각화할 수 있습니다.

막대 그래프(Bar Chart): 각 범주의 빈도수 또는 비율을 비교
파이 차트(Pie Chart): 전체에서 각 범주의 구성 비율 표현 (범주 수가 적을 때 적합)
히트맵(Heatmap): 두 개의 범주형 변수 간의 관계를 표현할 때 유용

예를 들어, 고객의 선호 색상 데이터를 막대 그래프로 시각화하면 어떤 색상이 가장 인기가 있는지 직관적으로 파악할 수 있습니다.

참고 자료 및 관련 문서

Python pandas: pd.get_dummies() – 원-핫 인코딩 구현
scikit-learn: LabelEncoder
Statistical Methods for Categorical Data Analysis – 범주형 데이터 분석 이론서

범주형 변수는 데이터 분석의 기초이자 핵심 요소입니다. 올바른 인코딩과 분석 기법을 선택함으로써 데이터의 의미를 정확히 반영하고, 신뢰할 수 있는 인사이트를 도출할 수 있습니다. 특히 머신러닝 파이프라인에서 범주형 변수의 전처리는 모델 성능에 직접적인 영향을 미치므로, 분석가의 세심한 주의가 필요합니다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

범주형 변수## 개요

범주형 변수(**Categorical Variable**)는 데이터 분석에서 중요한 데이터 유형 중 하나로, 관측값이 특정 **범주**(category) 또는 **그룹**에 속하는지를 나타내는 변수입니다. 이 변수는 수치적 의미보다는 **질적**(qualitative) 성격을 가지며, 데이터를 분류하거나 그룹화하는 데 사용됩니다. 예를 들어, 성별(남성, 여성), 혈액형(A형, B형, AB형, O형), 직업(의사, 교사, 엔지니어) 등이 범주형 변수의 대표적인 예입니다.

데이터 과학과 통계 분석에서는 변수의 유형에 따라 분석 방법과 시각화 기법이 달라지므로, 범주형 변수를 정확히 이해하고 처리하는 것은 데이터 분석의 정확성과 해석의 신뢰성을 높이는 데 핵심적인 역할을 합니다.

---

## 범주형 변수의 종류

범주형 변수는 그 범주의 성격에 따라 두 가지 주요 하위 유형으로 나뉩니다.

### 명목형 변수 (Nominal Variable)

- **정의**: 순서가 없는 범주를 가진 변수입니다.
- **특징**: 범주 간에 크기나 순서의 의미가 없습니다.
- **예시**:
  - 성별: 남성, 여성
  - 혈액형: A, B, AB, O
  - 국적: 한국, 미국, 일본
- **분석 시 고려사항**: 통계적 분석 시에는 레이블 인코딩(Label Encoding)이나 원-핫 인코딩(One-Hot Encoding) 등의 방법을 사용하여 모델이 이해할 수 있도록 변환해야 합니다.

### 순서형 변수 (Ordinal Variable)

- **정의**: 범주 간에 **의미 있는 순서**가 존재하는 변수입니다.
- **특징**: 범주가 순서를 가지지만, 간격이 동일하지 않을 수 있습니다.
- **예시**:
  - 학력: 고졸, 전문대졸, 대졸, 대학원졸
  - 만족도 평가: 매우 불만족, 불만족, 보통, 만족, 매우 만족
- **분석 시 고려사항**: 순서 정보를 유지하는 방식으로 인코딩해야 하며, 일반적으로 정수 값으로 매핑되지만, 간격이 등간격이 아님을 유의해야 합니다.

---

## 범주형 변수의 데이터 처리

머신러닝 모델은 대부분 수치형 입력을 필요로 하기 때문에, 범주형 변수는 분석 전에 적절한 방식으로 **수치화**(encoding)되어야 합니다.

### 1. 레이블 인코딩 (Label Encoding)

- 각 범주에 고유한 정수 값을 할당합니다.
- **예시**:
  ```
  '빨강' → 0
  '파랑' → 1
  '초록' → 2
  ```
- **장점**: 간단하고 메모리 효율적
- **단점**: 명목형 변수에 사용 시, 모델이 숫자의 크기를 순서로 오해할 수 있음 (예: 2 > 1이므로 '초록'이 '파랑'보다 중요하다고 판단할 수 있음)

### 2. 원-핫 인코딩 (One-Hot Encoding)

- 각 범주에 대해 하나의 이진 열(binary column)을 생성합니다.
- **예시**:
  
  | 색상  | 빨강 | 파랑 | 초록 |
  |-------|------|------|------|
  | 빨강  | 1    | 0    | 0    |
  | 파랑  | 0    | 1    | 0    |
  | 초록  | 0    | 0    | 1    |

- **장점**: 명목형 변수에 적합하며, 순서 정보를 부여하지 않음
- **단점**: 범주 수가 많을 경우 차원 증가(차원의 저주) 문제가 발생할 수 있음

### 3. 타깃 인코딩 (Target Encoding)

- 범주별로 목표 변수(target)의 평균값을 사용하여 인코딩합니다.
- 주로 분류 문제에서 사용되며, 특히 카테고리가 많은 경우 유용합니다.
- **주의**: 데이터 누수(data leakage)를 방지하기 위해 교차 검증 방식으로 적용해야 합니다.

---

## 범주형 변수의 시각화

범주형 변수는 다음과 같은 그래프를 통해 효과적으로 시각화할 수 있습니다.

- **막대 그래프**(Bar Chart): 각 범주의 빈도수 또는 비율을 비교
- **파이 차트**(Pie Chart): 전체에서 각 범주의 구성 비율 표현 (범주 수가 적을 때 적합)
- **히트맵**(Heatmap): 두 개의 범주형 변수 간의 관계를 표현할 때 유용

예를 들어, 고객의 선호 색상 데이터를 막대 그래프로 시각화하면 어떤 색상이 가장 인기가 있는지 직관적으로 파악할 수 있습니다.

---

## 관련 통계 분석 기법

범주형 변수를 분석할 때는 다음과 같은 통계 기법이 활용됩니다.

- **카이제곱 검정**(Chi-square Test): 두 범주형 변수 간의 독립성을 검정
- **크로스탭**(Crosstab): 두 변수의 빈도 분포를 표로 정리
- **로지스틱 회귀**(Logistic Regression): 범주형 독립변수를 사용하여 이진 결과 예측

---

## 참고 자료 및 관련 문서

- [Python pandas: `pd.get_dummies()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html) – 원-핫 인코딩 구현
- [scikit-learn: LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)
- [Statistical Methods for Categorical Data Analysis](https://www.cambridge.org/core/books/statistical-methods-for-categorical-data-analysis/) – 범주형 데이터 분석 이론서

---

범주형 변수는 데이터 분석의 기초이자 핵심 요소입니다. 올바른 인코딩과 분석 기법을 선택함으로써 데이터의 의미를 정확히 반영하고, 신뢰할 수 있는 인사이트를 도출할 수 있습니다. 특히 머신러닝 파이프라인에서 범주형 변수의 전처리는 모델 성능에 직접적인 영향을 미치므로, 분석가의 세심한 주의가 필요합니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나